<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
<title>АОТ :: Технологии :: Тезаурусы</title>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<link href="../aot.css" rel="stylesheet" type="text/css">
</head>

<body bgcolor="#F3F3F3" text="#000000" link="#000000" vlink="#999999" alink="#000000">
<a name="top"></a>
<table border="0" align="center" cellpadding="1" cellspacing="0">
  <tr>
    <td bgcolor="#666666"><table width="760" border="0" cellpadding="0" cellspacing="0" bgcolor="#FFFFFF">
        <tr>
          <td><table border="0" cellspacing="0" cellpadding="5">
              <tr>
                <td width="30">&nbsp;</td>
                <td><font size="+7" face="Arial, Helvetica, sans-serif"><b>АОТ</b></font></td>
                <td width="40">&nbsp;</td>
                <td valign="baseline"><font size="+1" face="Arial, Helvetica, sans-serif"> Автоматическая  Обработка  Текста</font></td>
              </tr>
            </table>
            <table width="720" border="0" align="center" cellpadding="0" cellspacing="0" bgcolor="#000000">
              <tr>
                <td height="4"><img src="../images/transparent.gif" width="1" height="4"></td>
              </tr>
            </table>
            <table width="760" border="0" cellpadding="0" cellspacing="0">
              <tr>
                <td valign="top"><table border="0" cellspacing="0" cellpadding="20">
                    <tr>
                      <td class="text">
                        <p align="center"><font size="-1" face="Arial, Helvetica, sans-serif"><a href="/index.html">главная</a> <a href="/history.html">о&nbsp;нас</a> <a href="/product.html">продукты</a> <a href="/download.php">скачать</a> <a href="/onlinedemo.html">&nbsp;демо</a> <a href="/technology.html"><b>технологии</b></a> &nbsp; <a href="#top" title="наверх">^</a></font></p>
                        <table width="720" border="0" cellpadding="3" cellspacing="0" bgcolor="#CCCCCC">
                          <tr>
                            <td class="titleblack">Тезаурусы</td>
                          </tr>
                        </table>
                        <table width="720" border="0" align="center" cellpadding="0" cellspacing="0">
                          <tr>
                            <td height="7"><img src="../images/transparent.gif" width="1" height="7"></td>
                          </tr>
                          <tr>
                            <td height="2" bgcolor="#000000"><img src="../images/transparent.gif" width="1" height="2"></td>
                          </tr>
                          <tr>
                            <td height="7"><img src="../images/transparent.gif" width="1" height="7"></td>
                          </tr>
                        </table>
                        <p><a href="#1">Тезаурусы</a></p>
                        <p><a href="#2">Локативный тезаурус</a></p>
                        <p><a href="#3">Финансовый тезаурус</a></p>
                        <p><a href="#4">Компьютерный тезаурус</a></p>
                        <p>&nbsp;</p>
                        <table width="720" border="0" cellspacing="0" cellpadding="0">
                          
                          
                          
                          
                          <tr>
                            
                            
                            
                            
                            <td class="titleblack"><a name="1"></a>Тезаурусы</td>
                            <td align="right"><a href="#top" title="наверх">^</a></td>
                          </tr>
                        
                        
                        
                        
                        </table>
                        <p>В отличие от семантических словарей, которые предназначены для
подробного описания  общей лексики,
тезаурусы созданы для хранения и классификации предельно конкретных слов и
словосочетаний. Например, слово <i>вещество</i>
находится в словаре РОСС , а все названия химических соединений уже в
тезаурусе.  </p>
                        <p>Изначально в системе ПОЛИТЕКСТ (подробнее Лукашевич[1995,1997])
тезаурусы хранили  слова и
словосочетания, которые назывались <b>текстовыми входами</b>, объединенные в
синонимические множества наподобие synset 
в тезаурусе WordNet.  Такие
синонимические множества назывались <b>концептами</b>. Концепты были связаны
друг с другом отношениями ВЫШЕ (Х,Y), ЧАСТЬ(Х,Y).</p>
                        <p>Тезаурусы системы ДИАЛИНГ построены на тех же  основаниях, что и тезаурусы системы
ПОЛИТЕКСТ, при этом они обладают двумя новшествами:</p>
                        <ol>
                          <li> Каждому текстовому входу
приписана синтаксическая модель. Для каждой модели указаны:
                            <ol>
                              <li>
 Набор пар вида &lt;часть речи,
перечень граммем&gt;. Каждая пара соответствует одной атомарной группе (слово
или  устойчивый оборот). В перечень
граммем включаются только самые необходимые граммемы, без которых нельзя
распознать текстовый  вход в тексте.
Например, текстовому  входу <i>Южная Америка</i> будет приписан набор
&lt;&lt;П,&gt;, &lt;С,&gt;&gt;. Перечень грамемм для обеих атомарных групп
пуст, так как для них нет обязательных граммем.</li>
                              <li> Набор синтаксических отношений вида r(х,y), где x,y – числа
от 1 до n, равном количеству атомарных 
групп. Синтаксическое отношение r может быть <b>с_опр</b>(согласование по роду, числу и падежу), <b>с_соч</b> (согласование по падежу) и <b>упр</b>. Например, текстовому 
входу <i>Южная Америка</i> будет
приписано ровно одно отношение: <b>c_опр</b>(2,1),
что означает, что слова <i>Америка</i> и <i>Южная </i>должны быть согласованы по роду,
числу и падежу.</li>
                              <li> Набор синтаксических групп вида ГР(х,y), где x,y – числа от 1
до n, равном кол-ву атомарных  групп. ГР
– название синтаксической группы, x и y начало и конец группы,  которую должен построить синтаксический
анализ. Например, текстовому входу <i>Южная
Америка</i> будет приписана группа ПРИЛ-СУЩ (1,2).
                                <p>Синтаксические модели необходимы для более точного распознавания
текстовых входов. Понятно, что набор синтаксических отношений и синтаксических
групп взаимозаменяем.</p>
                              </li>
                            </ol>
                          </li>
                          <li>Каждому текстовому входу может быть приписана словарная
статья, которая раскрывает все семантические отношения внутри текстового входа,
а также все внешние валентности этого текстового входа. Словарная статья
записывается в формате статей словаря РОСС. </li>
                        </ol>
                        <p>Принципиально, выразительные силы тезауруса и семантического
словаря равны, поскольку отношения ВЫШЕ, ЧАСТЬ могут быть записаны в словарной
статье, а в обратную сторону это верно, поскольку для любого текстового входа
может быть составлена статья. </p>
                        <p>Все тезаурусы подключены на этапе синтаксического анализа,
который, используя синтаксическую модель, обнаруживает и помечает эти единицы в
тексте.</p>
                        <p>Все термины из тезаурусов считаются безусловными открытыми
словосочетаниями.</p>
                        <p>К сказанному нужно добавить, что тезаурус также используется для
перевода с русского языка на английский и наоборот. Текстовые входы разных
языков, которые являются переводами друг друга, включены в один концепт.</p>
                        <p>Стоит отметить еще одно важное теоретическое различие в
понимании тезаурусов в ПОЛИТЕКСТ и ДИАЛИНГ. Тезаурус системы ПОЛИТЕКСТ
(Лукашевич[1995,1997]) создавался для построения поискового образа политических
документов. Этот тезаурус обладает огромным размером (примерно 150 тысяч
концептов), и в нем содержатся очень длинные цепочки отношений между
концептами. Но как уже было сказано выше (параграф &quot;Онтология системы
Микрокосмос&quot;), мы считаем, что транзитивность в языке работает только на
коротких дистанциях (два-три шага), поэтому построение тезаурусов огромных
размеров представляется излишним.</p>
                        <p>&nbsp;</p>
                        <table width="720" border="0" cellspacing="0" cellpadding="0">
                          
                          
                          
                          
                          <tr>
                            
                            
                            
                            
                            <td class="titleblack"><a name="2"></a>Локативный тезаурус</td>
                            <td align="right"><a href="#top" title="наверх">^</a></td>
                          </tr>
                        
                        
                        
                        
                        </table>
                        <p>Следуя Шалимову[1996] и Сокирко[1996], локативные слова делятся
на слова-категории и слова, связанные с конкретными географическими объектами.
Мы считаем слово географичным, если оно способно обозначать географический
объект.  Под географическим объектом
(ГО) мы  будем  понимать часть нашего трехмерного пространства,  имеющую постоянные координаты.Например,  <i>птица</i>
и <i>человек</i> - не ГО, так как они
способны перемещаться, а <i>гора</i> и <i>океан</i> - ГО.  В ГО не включаются те объекты, которые меньше, чем обыкновенный
дом.  Таким образом, мы ограничиваем
снизу размеры всех ГО.</p>
                        <p>Слов-категорий (например: <i>город,
деревня,  гора...)</i>  в русском языке около 250.  Для каждого такого слова-категории
составляется полноценная словарная статья 
в формате РОСС. Для слов-категорий 
можно выделить шаблонную статью:</p>
                        <pre>КАТ   = 1 ЭТК.ОБ
ГХ    = 1  СУЩ:ИГ
СХ    = 1 ГЕОГР
ВАЛ   =  ЧАСТЬ, С, А1
         ИМЯ , А2 , С 
ГХ1   = 1 к_доп:Р
ГХ2   = 1 прим_опр:И</pre>
<p>Такие статьи разрешают контексты типа  <i>Город Одинцово Московской
области. </i></p>
                        <ul>
                          <li>
    
    Слова-категории противопоставлены  конкретным географическим названиям типа <i>Одинцово, Москва</i> и т.д.
	                        <p>Все географические названия
помещены в географический тезаурус, в котором каждый текстовый вход  характеризуется обычно следующими
параметрами:</p>
                          </li>
                          <li>
    
    Слово-категория, к которому восходит данный текстовый
вход, например:  ВЫШЕ(<i>город, Свердловск</i>),   ВЫШЕ(<i>река, Волга</i>).</li>
                          <li>
    
    Лексические функции, которые можно взять от этого
текстового входа. Например: A0(<i>Свердловск)
</i>= <i>свердловский, </i>Inhabit(<i>Москва)</i> = <i> москвич.</i></li>
                          <li>
    
    Географический объект, частью которого является объект,
обозначаемый данным входом.  Например,
ЧАСТЬ(<i>Москва</i>, <i>Россия</i>).</li>
                        </ul>
                        <p>Поскольку любое слово ЭТК.ОБ 
может быть употреблено в локативном значении, в семантическом
анализе  в некоторых случаях (см.ниже в
параграфе &quot;<a href="seman.html#2-10">Установление
отношений  между локативными  узлами</a>&quot;) слова ЭТК.ОБ приравниваются  к географической  группе.</p>
                        <p>Для локативной предметной области введены особые семантические
характеристики:</p>
                        <ul>
                          <li>
    
    ПОЧВ_РАСТ (<i>болото,  лес, поляна...</i>);</li>
                          <li>
    
    ТВЕРД (<i>остров,
гора, впадина...</i>);</li>
                          <li>
    
    ВОДН (<i>река,  запруда, океан...</i>).</li>
                        </ul>
                        <p>Кроме этого, для локативов используются следующие СХ из
основного набора:</p>
                        <ul>
                          <li>
    
    АРТ (<i>канал, город...</i>);</li>
                          <li>
    
    ОРГ (<i>город,
станция, монастырь...</i>);</li>
                          <li>
    
    МНОГ (<i>горный
массив, архипелаг...</i>);</li>
                          <li>
    
    ПРОТЯЖ (<i>берег,
река, граница</i>...).</li>
                        </ul>
                        <p>Сложные синтаксические конструкции, обозначающие географическое
место (например, точная запись адреса или маршрута движения), в проекте ДИАЛИНГ
не рассматривались. Но можно с уверенностью сказать, что они проще темпоральных
конструкций, и поэтому не потребуют более сложного аппарата, чем тот, который
уже имеется.</p>
                        <p>&nbsp;</p>
                        <table width="720" border="0" cellspacing="0" cellpadding="0">
                          
                          
                          
                          
                          <tr>
                            
                            
                            
                            
                            <td class="titleblack"><a name="3"></a>Финансовый тезаурус</td>
                            <td align="right"><a href="#top" title="наверх">^</a></td>
                          </tr>
                        
                        
                        
                        
                        </table>
                        <p>Финансовый тезаурус содержит сейчас около 2500 концептов. Его
формальная структура стандартна. Вкратце опишем содержание финансового
тезауруса. </p>
                        <p>Содержание тезаурусов мы будем описывать с помощью множества <b>корневых
концептов</b>. Это множество состоит из концептов, в которые не входит ни одна
стрелка [<a name="p1" href="#pp1">1</a>].</p>
                        <p>Ниже будет дан перечень корневых концептов финансового
тезауруса. Из перечня будет  видно, что
все корневые концепты можно перевести в семантические характеристики. Таким
образом, самая абстрактная часть тезауруса совпадает с общесемантической классификацией.</p>
                        <table width="720" border=1 cellpadding=3 cellspacing=0 bordercolor="#CCCCCC">
    
    
                          <tr bgcolor="#CCCCCC">
      
                            <th width=170>
  Основные корневые концепты</th>
                            <th width=180>
  Первичная семантическая интерпретация</th>
                            <th>
  Примеры</th>
                          </tr>
    
                          <tr>
      
                            <td width=170>
  организация</td>
                            <td width=180>
  СХ = ОРГ</td>
                            <td>
  банк,
  арбитражный суд</td>
                          </tr>
    
                          <tr>
      
                            <td width=170>
  должность</td>
                            <td width=180>
  СХ =ДОЛЖ</td>
                            <td>
  министр,
  член совета директоров банка</td>
                          </tr>
    
                          <tr>
      
                            <td width=170>
  профессия</td>
                            <td width=180>
  СХ =ДОЛЖ</td>
                            <td>
  бухгалтер, налоговый инспектор</td>
                          </tr>
    
                          <tr>
      
                            <td width=170>
  деятельность</td>
                            <td width=180>
  КАТ = ЭТК.СИТ</td>
                            <td>
  эмиссия,
  фьючерсная сделка</td>
                          </tr>
    
                          <tr>
      
                            <td width=170>
  ситуация</td>
                            <td width=180>
  КАТ = ЭТК.СИТ</td>
                            <td>
  финансовая стабилизация, бум капиталовложений</td>
                          </tr>
    
                          <tr>
      
                            <td width=170>
  средство</td>
                            <td width=180>
  СХ = СРЕДСТВО</td>
                            <td>
  деньги, 
           
  резервная наличность</td>
                          </tr>
    
                          <tr>
      
                            <td width=170>
  документ</td>
                            <td width=180>
  СХ = НОСИНФ</td>
                            <td>
  страховой полис, налоговая декларация</td>
                          </tr>
    
                          <tr>
      
                            <td width=170>
  система</td>
                            <td width=180>
  СХ = АБСТР</td>
                            <td>
  депозитарная система, 
  реальный сектор экономики</td>
                          </tr>
  
                        </table>
                        <p>&nbsp;</p>
                        <table width="720" border="0" cellspacing="0" cellpadding="0">
                          
                          
                          
                          
                          <tr>
                            
                            
                            
                            
                            <td class="titleblack"><a name="4"></a>Компьютерный тезаурус</td>
                            <td align="right"><a href="#top" title="наверх">^</a></td>
                          </tr>
                        
                        
                        
                        
                        </table>
                        <p>Компьютерный тезаурус содержит сейчас около 1500 концептов. Ниже
приведем перечень корневых концептов компьютерного тезауруса</p>
                        <table width="720" border=1 cellpadding=3 cellspacing=0 bordercolor="#CCCCCC">
    
    
 
    
                          <tr bgcolor="#CCCCCC">
      
                            <th width=200>
  Основные корневые концепты</th>
                            <th width=200>
  Первичная семантическая интерпретация</th>
                            <th>
  Примеры</th>
                          </tr>
    
                          <tr>
      
                            <td width=200>
  электронная информация</td>
                            <td width=200>
  СХ = ИНФ</td>
                            <td>
  база данных, программа, файловая система</td>
                          </tr>
    
                          <tr>
      
                            <td width=200>
  устройство</td>
                            <td width=200>
  СХ =УСТР</td>
                            <td>
  компьютер, принтер</td>
                          </tr>
    
                          <tr>
      
                            <td width=200>
  деталь устройства</td>
                            <td width=200>
  СХ=Д-УСТР</td>
                            <td>
  процессор, клавиатура, мышь</td>
                          </tr>
    
                          <tr>
      
                            <td width=200>
  носитель информации</td>
                            <td width=200>
  СХ = НОСИНФ</td>
                            <td>
  память, жесткий диск</td>
                          </tr>
    
                          <tr>
      
                            <td width=200>
  должность</td>
                            <td width=200>
  СХ = ДОЛЖ</td>
                            <td>
  модератор, системный администратор, пользователь</td>
                          </tr>
    
                          <tr>
      
                            <td width=200>
  действия</td>
                            <td width=200>
  КАТ = ЭКТ.СИТ</td>
                            <td>
  форматирование, перезагрузка, архивирование</td>
                          </tr>
  
                        </table>
                        <p>&nbsp;</p>
                        <p>[<a name="pp1" href="#p1">1</a>] Непустота
множества корневых концептов вытекает из того, что в тезаурусе запрещены циклы.</p>
<table width="720" border="0" align="center" cellpadding="0" cellspacing="0" bgcolor="#000000">
                          <tr>
                            <td height="2"><img src="../images/transparent.gif" width="1" height="2"></td>
                          </tr>
                        </table>
                        <p align="center"><font size="-1" face="Arial, Helvetica, sans-serif"><a href="/index.html">главная</a> <a href="/history.html">о&nbsp;нас</a> <a href="/product.html">продукты</a> <a href="/download.php">скачать</a> <a href="/onlinedemo.html">&nbsp;демо</a> <a href="/technology.html"><b>технологии</b></a>  &nbsp; <a href="#top" title="наверх">^</a></font></p></td>
                    </tr>
                  </table></td>
              </tr>
              <tr>
                <td valign="bottom"><table width="750" border="0" cellspacing="0" cellpadding="0">
                    <tr>
                      <td>&nbsp;</td>
                      <td align="right"><table border="0" cellspacing="5" cellpadding="0">
                          <tr> 
                            <td align="right"><font color="#999999" size="1">Разработка 
                              <a href="mailto:simple@mosk.ru"><font color="#999999">DiP</font></a>.<br>
                              &copy; 2003 <a href="http://www.aot.ru/"><font color="#999999">АОТ</font></a>. 
                              Все права защищены.</font></td>
                          </tr>
                        </table></td>
                    </tr>
                  </table></td>
              </tr>
            </table></td>
        </tr>
      </table></td>
    <td bgcolor="#CCCCCC"><img src="../images/transparent.gif" width="1" height="1"></td>
  </tr>
  <tr>
    <td bgcolor="#CCCCCC"><img src="../images/transparent.gif" width="1" height="1"></td>
    <td bgcolor="#CCCCCC"><img src="../images/transparent.gif" width="1" height="1"></td>
  </tr>
</table>
</body>
</html>